Installation de Linux
Utilisation de Docker : Permet de créer un environnement de travail isolé où la configuration y est différente de l’ordinateur et où la configuration du Docker est la même pour tous ses utilisateurs
Utilisation de GitHub : service d’hébergement de gestion des versions des fichiers -> permet de travailler collaborativement sur un même code
CORINE Land Cover : données de Copernicus accessibles sur le géoportail belge
47 classes dont 26 présentes en Wallonie -> regroupement en 5 classes : Zones artificielles, Zones de cultures, Zones herbacées, Forêt et Plans d’eau
Récupération des données CLC aux stations (physiques et virtuelles) : réalisation de zones tampons autour des stations et calcul de la part de présence de chaque classe dans la zone
## sid Agricultural areas Herbaceous vegetation Forest
## 1 vs_1 53.715238 44.050842 0.000000
## 2 vs_10 9.880474 55.039849 33.858245
## 3 vs_100 74.292621 23.349854 1.167155
## 4 vs_1000 0.000000 0.000000 99.995888
## 5 vs_10000 15.540447 3.680151 0.000000
## 6 vs_10001 9.923178 48.652962 5.173979
## Artificials surfaces Water
## 1 0.000000 0
## 2 1.217319 0
## 3 1.186258 0
## 4 0.000000 0
## 5 80.775290 0
## 6 36.245769 0
29 stations du réseau PAMESEB
Accès à des données dynamiques horaires : température, humidité relative, humectation du feuillage, ensoleillement
27 stations utilisables si on prend l’ensoleillement
Rayonnement solaire : données EUMETSAT récupérées sur une API
Données horaires, 875 points répartis sur la Wallonie -> insuffisant pour la précision souhaitée d’1 km² (~ 17000 points)
Spatialisation des données solaires à l’aide d’une méthode de krigeage
Données SRTM pour récupérer l’altitude avec une résolution de 90m puis calcul de la pente, l’orientation et la rugosité du terrain avec R
Données très volumineuses = Temps de calcul important
Puis fusion de ces données en un seul tableau de données. Mais peu lisible car beaucoup de lignes (nb stations X nb heures récupérées) et non intégrable dans mlr.
-> Création de “nested data frames”
Définition : Le Machine Learning est un concept stipulant qu’il existe des algorithmes génériques pouvant nous révéler des informations intéressantes sur des données, sans avoir besoin de construire ou de développer un code spécifique. Au lieu d’écrire du code, vous nourrissez donc ces algorithmes avec des données qui leur permettront de construire leurs propres logiques.
Objectif : Réaliser un benchmark où différents algorithmes de régression sont appliqués à différentes tâches (ensemble de données avec différentes combinaisons de variables explicatives et le paramètre ciblé) dans le but de les comparer et de les classer et utiliser une stratégie de rééchantillonage par validation croisée (LOOCV) qui permet d’obtenir les performances souhaitées.
mlr : package R proposant une interface simplifiée et commune pour toutes les méthodes statistiques à intégrer dans le machine learning.
Paramètres à définir pour la modélisation :
Le paramètre ciblé : Température
Les méthodes statistiques d’apprentissage : Régression linéaire multiple
Les variables explicatives à comparer
La méthode de rééchantillonage : validation croisée
A travers le benchmark :
A travers mlr :
A travers des cartes :
Statiques ou interactives (leaflet)
Visualisation des prédictions pour une heure donnée mais aussi de l’erreur relative
Création d’une couche contenant les prédictions, visualisée avec une palette de couleur
Création d’une couche contenant l’erreur associée à chaque prédiction avec un niveau de transparence variable (couche blanche avec opacité plus importante si l’erreur est élevée)
La démarche est définie et prête pour créer les modèles.
Prochain ojectif : Créer le modèle à partir de 5 ans de données et obtenir la meilleure combinaison de variables explicatives